Tópicos Especiais em Estatística Computacional
Universidade Federal de Pernambuco (UFPE)
2025-07-12
Contexto: A computação onipresente gera fluxos massivos de dados inerciais (Smartphones, Smartwatches).
O Desafio: Classificar atividades complexas a partir de séries temporais ruidosas e estocásticas.
. . .
Abordagem Proposta: Substituir a Feature Engineering manual clássica por Deep Learning End-to-End.
Objetivo
Comparar rigorosamente o desempenho de redes Recorrentes (LSTM) vs. Convolucionais (1D-CNN) no dataset UCI HAR.
Para alimentar as redes neurais, os dados foram estruturados em janelas deslizantes.
\[X \in \mathbb{R}^{N \times 128 \times 9}\]
1. Dimensão Temporal (Time Steps): * Frequência: 50Hz. * Tamanho da Janela: 128 passos. * Duração Física: \(\frac{128}{50} = \mathbf{2.56 \text{ segundos}}\). * Overlap (50%): A janela desliza a cada 64 passos para manter a continuidade do movimento.
2. Dimensão de Features (Canais): As 9 variáveis de entrada (\(X_t\)): 1. Aceleração Corporal (\(x, y, z\)) 2. Aceleração Total (\(x, y, z\)) \(\rightarrow\) Inclui Gravidade! 3. Giroscópio (\(x, y, z\))
Utilizamos One-Hot Encoding para todas as 6 classes, evitando ordinalidade numérica.
| ID | Atividade | Vetor One-Hot (Target) |
|---|---|---|
| 1 | Caminhando | [1, 0, 0, 0, 0, 0] |
| 2 | Subindo Escadas | [0, 1, 0, 0, 0, 0] |
| 3 | Descendo Escadas | [0, 0, 1, 0, 0, 0] |
| 4 | Sentado | [0, 0, 0, 1, 0, 0] |
| 5 | Em Pé | [0, 0, 0, 0, 1, 0] |
| 6 | Deitado | [0, 0, 0, 0, 0, 1] |
A camada final utiliza a função Softmax para converter os logits (saídas brutas) em uma distribuição de probabilidade válida.
\[P(y=i|x) = \sigma(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}\]
Detalhamento dos Termos: * \(z_i\): Logit (score linear) gerado pelo neurônio da classe \(i\). Quanto maior, mais provável a classe. * \(e^{z_i}\): Exponencial natural. Garante que todos os valores sejam positivos e penaliza valores baixos. * \(\sum\) (Denominador): Soma de todas as exponenciais. Atua como fator de normalização para que \(\sum P(y) = 1\). * \(K\): Número total de classes (\(K=6\)).
Decisão Final: \[\hat{y} = \text{argmax}(\sigma(z))\]
A Long Short-Term Memory processa a sequência temporal passo a passo (\(t=1 \dots 128\)), mantendo uma memória de longo prazo.
Equações dos Portões: 1. Esquecimento (\(f_t\)): O que descartar da memória antiga? \[f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)\] 2. Entrada (\(i_t\)): O que adicionar de novo? \[i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)\]
Variáveis: * \(x_t\): Vetor de entrada no tempo \(t\) (dimensão 9). * \(h_{t-1}\): Estado oculto (saída) do passo anterior. * \(W, b\): Pesos e vieses aprendidos pela rede. * \(\sigma\): Função Sigmoide (retorna valor entre 0 e 1).
A Convolutional Neural Network 1D utiliza filtros deslizantes para detectar padrões locais (como um pico de aceleração súbito).
Operação de Convolução Discreta: \[y[t] = (x * w)[t] = \sum_{k=0}^{K-1} x[t+k] \cdot w[k] + b\]
Detalhamento dos Termos: * \(x\): Janela de entrada (sinal temporal). * \(w\): Kernel (Filtro) de tamanho \(K\) (ex: \(K=3\)). É aqui que a rede aprende a “forma” do movimento. * \(t\): Posição temporal onde o filtro está sendo aplicado. * \(b\): Viés (bias) do filtro.
Vantagem: Invariância à translação (detecta o passo independente de quando ele ocorre na janela).
[Image of 1D Convolutional Neural Network structure]
Foco: Dependência Temporal Longa.
return_sequences=True)Foco: Padrões Locais e Invariância.
| Parâmetro | Configuração | Justificativa |
|---|---|---|
| Otimizador | Adam | Momento Adaptativo para convergência rápida. |
| Learning Rate | 0.001 | Padrão inicial, ajustado dinamicamente. |
| Inicialização | He Normal | Ideal para função de ativação ReLU. |
| Scheduler | ReduceLROnPlateau |
Ajuste fino (fine-tuning) em mínimos locais. |
| Critério Parada | EarlyStopping |
Monitoramento da Val Loss (Patience=12). |
Avaliação em 2.947 amostras independentes.
| Métrica | Stacked LSTM | Pure 1D-CNN |
|---|---|---|
| Acurácia Global | 90% | 93% |
| Precision (Média) | 0.90 | 0.94 |
| F1-Score (Média) | 0.90 | 0.93 |
Veredito
A 1D-CNN é superior tanto em acurácia quanto em eficiência computacional para janelas curtas (2.56s).
Obrigado!